6.1 线性模型的概念和分类

1 线性模型的概念

有时候两个随机变量存在很明显的线性关系, 因此我们需要专门研究线性模型.

线性统计模型

设 $Y$ 是可观察的随机变量, $x_{1}, \dots, x_{m}$ 是可观察的一般变量. $β_{1}, \dots, β_{p}$ 是未知参数. $ε$ 是不可观察的随机变量, 称为随机误差. 如果 $Y = \sum_{j = 1}^{p} f_{j} (x_{1}, \dots, x_{m}) β_{j} + ε,$ 其中 $f_{j}$ 已知, 则上式是线性统计模型, 简称线性模型. 一般假设 $E ε = 0$ .

一般我们可以把 $f_{j} (x_{1}, \dots, x_{m})$ 记为 ${\tilde{x}}_{j}$ , 则 $\sum_{j = 1}^{p} f_{j} (x_{1}, \dots, x_{m}) β_{j} = \sum_{j = 1}^{p} {\tilde{x}}_{j} β_{j} .$ 不失一般性, 记线性模型为 $\begin{matrix} (1.1) & Y = \sum_{j = 1}^{p} x_{j} β_{j} + ε, E (ε) = 0. \end{matrix}$
此时 $E Y = \sum_{j = 1}^{p} x_{j} β_{j}$ . ^[1]

在上面的定义里我们只取了前 $p$ 个变量, 假设 $x_{p + 1}, \dots, x_{m}$ 这些次重要的变量也共同影响了 $Y$ , 则有 $Y = f (x_{1}, \dots, x_{p}) + g (x_{p + 1}, \dots, x_{m}) = f (x_{1}, \dots, x_{p}) + ε .$ 所以 $ε$ 可以理解为方程近似.

统计理论中, 我们不追究误差来自随机噪音或是次要特征, 而只关心它的分布特征.
在实际的 (1.1) 的统计推断中, 假设我们进行了 $n > p$ 次实验; 第 $α$ 次实验自变量为 $x_{α} = (x_{α 1}, \dots, x_{α p})^{T}$ (称 $x_{α}$ 为一个试验点), 相应的观察值为 $y_{α}$ , 也即 $y_{α} = \sum_{j = 1}^{p} x_{α j} β_{j} + ε_{α}, E ε_{α} = 0.$ 记 $y = (y_{1}, \dots, y_{n})^{T}, X = (x_{α j})$ , $β = (β_{1}, \dots, β_{p})^{T}$ , $ε = (ε_{1}, \dots, ε_{n})^{T}$ , 则上式简写为 $\begin{matrix} (1.2) & y = X β + ε, E ε = \vec{0} . \end{matrix}$
这里 $X$ 称为 设计矩阵, $y$ 称为观察值向量. (1.2) 会成为以后的出发点.

2 分类

根据自变量因子是连续/离散数值, 我们把它们分为数量因子和属性因子两种. 基于此:

如果都是数量因子, 称为回归分析模型;
如果都是属性因子, 称为方差分析模型;
如果两者都有, 称为协方差分析模型.

另一种分类方法是把 $β_{j}$ 看作因子 $j$ 的显著程度, 它可能是随机的也可能是固定的.

如果都是固定的, 称为固定效应模型;
如果都是随机的不可观察的, 称为随机效应模型;
如果两者都有, 称为混合效应模型.

我们把 $x_{1}, \dots, x_{p}$ 称为自变量, $Y$ 是因变量; 不过它们只是对应方程表达式, 并不是真的因果关系. 有关因果关系参阅因果推断. ↩︎